在马尔可夫决策过程(MDP)中,可能存在不可观察的混杂因素并对数据生成过程产生影响,因此经典的非政策评估(OPE)估计器可能无法识别目标策略的真实价值函数。在本文中,我们研究了与可观察的仪器变量混杂的MDP中OPE的统计特性。具体而言,我们根据仪器变量提出了一个两阶段估计器,并在具有线性结构的混杂MDP中建立了其统计属性。对于非反应分析,我们证明了一个$ \ Mathcal {o}(n^{ - 1/2})$ - 错误绑定了$ n $是样本的数量。对于渐近分析,我们证明了两阶段估计量在渐近正常上,典型速率为$ n^{1/2} $。据我们所知,我们是第一个通过仪器变量显示混合线性MDP的两阶段估计量的统计结果。
translated by 谷歌翻译
合作多代理增强学习(CMARL)具有许多真实的应用程序,但是在部署时,现有CMARL算法培训的政策不够强大。关于RL系统的对抗攻击也存在许多方法,这意味着RL系统可能会遭受对抗攻击,但大多数都集中在单个代理RL上。在本文中,我们在CMARL系统上提出了一个\ textit {稀疏对抗攻击}。我们将(MA)RL与正规化一起训练攻击政策。我们的实验表明,当当前CMARL算法训练的政策可以在团队中只有一名或几个代理(例如,25个中的1个或5个中的1个)在几个时间段攻击时(例如,攻击3的总数3或5)可以获得较差的性能40个时间段)。
translated by 谷歌翻译
自我监督的语音表示学习在各种语音处理任务中显示出令人鼓舞的结果。但是,预先训练的模型,例如休伯特是存储密集型变压器,限制了其在低资源设置下的应用程序范围。为此,我们建议通过修剪结构化参数自动找到所需的体系结构Lighthubert,这是一个曾经是变压器的压缩框架。更确切地说,我们创建了一个基于变压器的超级网,该超网嵌套着数千个重量共享子网,并设计了一个两阶段的蒸馏策略,以利用休伯特的上下文化潜在表示。关于自动语音识别(ASR)和出色基准的实验表明,拟议的lighthubert可实现$ 10^9 $的架构,该体系结构涉及嵌入尺寸,注意力维度,头部编号,进率向前网络比率和网络深度。 Lighthubert优于ASR上的原始Hubert和Hubert大小的五个出色的任务,在大多数任务中,在大多数任务中都具有可比的性能,并减少了29%的参数,并获得了$ 3.5 \ times $ times $ compression $压缩比在三个超级任务中,例如自动扬声器验证,关键字发现和意图分类,略有准确的损失。代码和预培训模型可在https://github.com/mechanicalsea/lighthubert上找到。
translated by 谷歌翻译
在本文中,我们遵循Eftekhari的工作,为深线性网络提供非局部收敛性分析。具体地,我们考虑优化具有在二次损耗下具有一个神经元的层的深度线性网络。我们描述了在梯度流动下具有任意起点的轨迹的收敛点,包括将其收敛到鞍点或原始点之一的路径。我们还显示了通过阶段收敛到全球最小化器的轨迹的特定收敛速度。为实现这些结果,本文主要延伸了Eftekhari的工作中的机器,以证明秩稳定集和全球最小化器会聚集。我们还提供具体示例以表明我们定义的必要性。据我们所知,我们的结果似乎是第一个从任意初始化点给出线性神经网络的非本地全球分析,而不是借导于神经网络文献,并限制良性培训制度Eftekhari工作中的初始化。我们还注意到,在没有一个隐藏的神经元假设的情况下将结果扩展到一般线性网络,仍然是一个具有挑战性的公开问题。
translated by 谷歌翻译
用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务,专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近,Vision-Language预训练模型大大提高了图像到文本生成任务的性能,但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中,我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vi​​lg。基于图像量化模型,我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程,我们进一步提出了端到端的训练方法,共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观,我们在大规模数据集中培训了100亿参数的Ernie-Vi​​lg模型,以145百万(中文)图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能,以便在MS-Coco上获取7.9的FID,用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。
translated by 谷歌翻译
我们在$ \ Gamma $ -diScounted MDP中使用Polyak-Ruppert平均(A.K.A.,平均Q-Leaning)进行同步Q学习。我们为平均迭代$ \ bar {\ boldsymbol {q}}建立渐近常态。此外,我们展示$ \ bar {\ boldsymbol {q}} _ t $实际上是一个常规的渐近线性(RAL)估计值,用于最佳q-value函数$ \ boldsymbol {q} ^ * $与最有效的影响功能。它意味着平均Q学习迭代在所有RAL估算器之间具有最小的渐近方差。此外,我们为$ \ ell _ {\ infty} $错误$ \ mathbb {e} \ | \ | \ bar {\ boldsymbol {q}} _ t- \ boldsymbol {q} ^ *} ^ *} _ {\ idty} $,显示它与实例相关的下限以及最佳最低限度复杂性下限。作为一个副产品,我们发现Bellman噪音具有var-gaussian坐标,具有方差$ \ mathcal {o}((1- \ gamma)^ {-1})$而不是现行$ \ mathcal {o}((1- \ Gamma)^ { - 2})$根据标准界限奖励假设。子高斯结果有可能提高许多R1算法的样本复杂性。简而言之,我们的理论分析显示平均Q倾斜在统计上有效。
translated by 谷歌翻译
我们展示了MVLayoutNet,是来自多视图全景的整体三维重建端到端网络。我们的核心贡献是无缝地将学习的单目布局估计和多视图立体声(MV)结合起来,以便在3D和图像空间中准确地重建。我们共同列出布局模块以产生初始布局和新型MVS模块,以获得精确的布局几何形状。与标准MVSNET [33]不同,我们的MVS模块采用新建的布局成本卷,其在相同的深度层中聚合到相应的布局元件中的多视图成本。我们还提供了一种基于注意的方案,指导MVS模块专注于结构区域。这种设计考虑了本地像素级成本和全球整体信息,以便更好地重建。实验表明,我们的方法在2D-3D-S [1]和Zind [5]数据集中,在深度RMSE方面以21.7%和20.6%表示最先进的。最后,我们的方法导致连贯的布局几何,使整个场景的重建能够。
translated by 谷歌翻译
分布式培训已成为培训大型神经网络(NN)模型的普遍性和有效的方法,该模型加工大规模数据。然而,满足来自各种NN模型,多样化计算资源的要求以及在培训工作期间的动态变化是非常挑战的。在这项研究中,我们在系统的端到端视图中设计了我们的分布式训练框架,以提供不同场景的内置自适应能力,特别是对于工业应用和生产环境,通过完全考虑资源分配,模型分区,任务放置和分布式执行。基于统一的分布式图和统一群集对象,我们的自适应框架配备了全球成本模型和全局计划者,可以实现任意并行,资源感知的放置,多模式执行,容错和弹性分布式。训练。实验表明,我们的框架可以满足应用程序的多样性和资源的异质性满足各种要求和具有竞争力的性能。具有260亿参数的Ernie语言模型在数千个AI处理器上有效地培训,可扩展性较弱的91.7%。通过采用异质管道异步执行,从推荐系统的模型的吞吐量可以分别增加到2.1倍,仅增加了GPU和CPU培训的3.3倍。此外,容错和弹性分布式培训已成功应用于在线工业应用,这减少了长期培训工作的数量,增加了34.49%,并在全球调度效率增加了33.91%生产环境。
translated by 谷歌翻译
深神经网络(DNN)利用多层和大量参数来实现优异的性能。 DNN模型的培训过程通常处理具有许多稀疏功能的大规模输入数据,引起高输入/输出(IO)的成本,而一些层数是计算密集型的。培训过程通常利用分布式计算资源来减少培训时间。此外,异构计算资源,例如CPU,多种类型的GPU,可用于分布式训练过程。因此,多个层对不同计算资源的调度对于训练过程至关重要。为了使用异构计算资源有效地训练DNN模型,我们提出了一种分布式框架,即桨式异构参数服务器(Paddle-Heterps),由分布式架构和加强学习(RL)的调度方法组成。与现有框架相比,Paddle-Heterps的优点是三倍。首先,Paddle-hotior是通过异构计算资源的多样化工作负载的高效培训过程。其次,Paddle-Heterps利用基于RL的方法以有效地将每层的工作量调度到适当的计算资源,以最小化成本,同时满足吞吐量约束。第三,Paddle-hotips管理分布式计算资源之间的数据存储和数据通信。我们进行了广泛的实验,以表明Paddle-hotors在吞吐量方面显着优于最先进的方法(更高14.5倍)和货币成本(312.3%较小)。框架的代码可在:https://github.com/paddlepaddle/paddle公开使用。
translated by 谷歌翻译
高光谱图像的聚类是一个基本而具有挑战性的任务。最近的高光谱图像聚类的发展已经从浅模型演变为深度,并且在许多基准数据集中实现了有希望的效果。然而,它们较差的可扩展性,稳健性和泛化能力,主要是由离线聚类方案引起的,极大地将其应用限制为大型超光谱数据。为了规避这些问题,我们基于自我监督学习呈现了一个可扩展的深度在线聚类模型,名为Spectral-Spatial对比聚类(SSCC)。具体地,我们利用了由簇号的一维的投影头组成的对称双神经网络,以从光谱空间增强池进行双重对比度学习。我们通过隐式鼓励在群集内相似度和群集冗余之间来定义目标函数。由此产生的方法通过批量优化以端到端的方式培训,使其在大规模数据中具有稳健性,并导致未经看明数据的良好概括能力。三个高光谱图像基准的广泛实验证明了我们的方法的有效性,并表明我们通过大型边缘推进最先进的方法。
translated by 谷歌翻译